InternGPT:点击鼠标,让AI更懂视觉任务
此外,InternGPT可结合诸多当下最受欢迎的API,如Stable Diffusion、miniGPT4、LLaVA和Husky[1]等,实现一键抠图、一键识别图中文字进行问答,以及一句话修图等七大功能。通过提供丰富的对话和生成能力,InternGPT把人机互动模式创新性地提高到了新的水平,降低了AI视觉任务的门槛,让AI成为万千大众都能使用的生产工具。
论文:
https://arxiv.org/abs/2305.05662DEMO(适配PC端):
https://igpt.opengvlab.com/开源链接:
https://github.com/OpenGVLab/InternGPT
应用举例
视觉任务中,常常需要在复杂的画面上进行物体编辑,如何让AI精准感知用户的意图尤为重要。以使用Visual ChatGPT为例,假设要把其中一个葫芦娃抠掉,可打字输入“把穿绿裤子的男孩去掉(Remove the boy in green pants)”。
换为使用InternGPT,鼠标点一点,直接在图片上和ChatGPT互动!点击葫芦娃,输入“remove it”,轻松完成抠图!
七大功能
InternGPT集成了七大功能:视觉问答、一键抠图、物体替换、风格迁移与图像生成、图片中的文字识别和交互、交互创作、视频截取与文案撰写。
功能1
视觉问答
示例图片中有狗、椅子、电扇,远处似乎还有山和水系,有点复杂,交给 InternGPT来看图:
输出
结果
这张照片显示了一只白色的狗坐在草地外面的床上。这只狗戴着一条皮带,拴在床边的背包上。旁边还有一个风扇,这表明狗的主人可能用它来给狗降温,让它在炎热的天气里保持舒适。桌子上还可以看到一个喷雾器,这表明狗的主人可能用它来给狗降温。
(The image shows a white dog sitting on a bed outsideon grass. The dog is wearing a leash, which is attached to a backpack that is placed near the bed. There is also a fan nearby, suggesting that the dog's owner might be using it to cool the dog down, keeping it comfortable in the hot weather A sprau bottle can also be seen on the table, suggesting that the dog's owner might be using it to cool the dog down.)
非常精准!
功能2
一键抠图
功能3
一句话替换物体
点一点,即可替换图中物体。
下图演示了灯塔“变”成埃菲尔塔(指令:Replace it with the Eiffel Tower)。
面对图中物体很多的复杂情况也没问题,想改哪里点哪里(指令:Repace it with a yellow dog)。
功能4
风格迁移与图像生成
功能5
图片中的文字识别和交互
功能6
交互创作
功能7
一句话剪辑视频与生成文案
效果对比
通过对比InternGPT和使用键盘交互的agent可以看出,使用InternGPT获得了更好的效果。
方法介绍
InternGPT主要由三个模块构成:作为控制器的大型语言模型,作为光标指令感知单元的视觉基础模型,以及作为后端的其他视觉基础模型和工具。下图展示了InternGPT的整体工作流程。
未来,研究团队计划在多模态交互的基础上加入InternImage和InternVideo中的基础模型。InternGPT是一次创新性的尝试,研究人员希望藉此将人工智能视觉任务的使用门槛不断降低,让所有人都可以通过点击等简单操作,轻松完成传统复杂任务,一起创造更有想象力的工作!